طورت شركة Kyutai، وهي شركة فرنسية للذكاء الاصطناعي، روبوت دردشة جديد يعمل بالذكاء الاصطناعي يسمى "Moshi" والذي يقدم ميزات مشابهة لـ "وضع الصوت المتقدم" GPT-4o الخاص بـ ChatGPT، يستطيع موشي فهم نبرة صوتك وتفسيرها ويمكن استخدامه أيضًا في وضع عدم الاتصال.
استنادًا إلى نموذج لغة كبير (LLM) بمعلمة 7B يسمى Helium، يتوفر برنامج الدردشة الآلي حاليًا للجميع ويمكنه التحدث بلهجات مختلفة و70 أسلوبًا عاطفيًا وتحدثًا مختلفًا، يستطيع Moshi أيضًا التعامل مع دفقين صوتيين في وقت واحد، مما يعني أنه يمكنه الاستماع والتحدث في نفس الوقت.
يتمتع روبوت الدردشة المدعم بالذكاء الاصطناعي، والذي سمي على اسم الطريقة اليابانية للرد على مكالمة هاتفية، بوقت استجابة يبلغ 200 مللي ثانية فقط، مما يجعله أسرع من وضع الصوت المتقدم في GPT-4o، والذي يستغرق عادةً ما بين 232 إلى 320 مللي ثانية.
يقول كيوتاي إنه يهدف إلى تعليم موشي الفروق الدقيقة ونغمات المحادثات البشرية المختلفة ولتعزيز جودة الصوت، تعاونت الشركة مع فنان صوت محترف.
ومع ذلك، على عكس GPT-40، فإن Moshi صغير جدًا وقد تم تطويره من الصفر في ستة أشهر بواسطة فريق مكون من ثمانية باحثين فقط، وبحسب ما ورد تم تدريبه على 100000 حوار تركيبي باستخدام تقنية تحويل النص إلى كلام.
يقول كيوتاي إن هدفه هو جعل برنامج الدردشة الآلي مشروعًا مفتوح المصدر، أي جعل كود النموذج وإطار العمل متاحًا للجميع، بحيث يمكن للمستخدمين استخدام برنامج الدردشة الآلي بأمان دون الحاجة إلى القلق بشأن الخصوصية.
في حين أن Moshi أسرع من GPT-4o، إلا أن الشركة تقول إنه نموذج بحثي أولي ووسيلة لهم لعرض وقت استجابة الروبوت وقدرته على تكرار ليس فقط الجمل ولكن النغمات والأصوات أيضًا.
كما اتضح، تعمل Kyutai أيضًا على نظام التعرف الصوتي والعلامة المائية وتتبع التوقيع الذي يعمل بالذكاء الاصطناعي والذي سيتم دمجه في النهاية مع Moshi.
وعلى الرغم من أن هذا قد لا يكون منافس ChatGPT الذي كنا ننتظره، إلا أنه بالتأكيد خطوة كبيرة في تطوير نماذج مفتوحة المصدر يمكن تشغيلها دون الاتصال بالإنترنت.
تم أضافة تعليقك سوف يظهر بعد المراجعة